

# گزارش پروژه درس معماری کامپیوتر

### استاد:

حمید سربازی آزاد

# اعضای گروه:

مسیح بیگیریزی محمدامین کرمی علیرضا حسینخانی امین حسنزاده

# فاز اول - پیادهسازی پردازنده mips به صورت

در این فاز با توجه به توضیحات داک پروژه اقدام به پیاده سازی پردازنده کردیم، در ادامه بخشهای مختلف پروژه به تفکیک مورد بررسی قرار میگیرد:

### Datapath

### شمای کلی Datapath موجود در پردازنده به صورت زیر میباشد



### ماژول های پیادهسازی شده

### mips core

این ماژول در عمل هسته ی مرکزی پردازنده ی ما میباشد که نمونه گیری از ماژول های regfile، pc\_control، alu، این ماژول برقراری ارتباط بین alu\_control، control و سیمکشی بین آن ها در آن انجام شده است، در وافع وظیفه اصلی این ماژول برقراری ارتباط بین ماژول ها با یکدیگر و misp\_machine است.

#### alu

این ماژول وظیفهی انجام محاسبات بر روی دو ورودی داده شده بر اساس سیگنال کنترلیای که از alu\_control دریافت میکند را بر عهده دارد. خروجی این ماژول یک عدد ۳۲ بیتی به نام alu\_r و یک سیگنال تکبیتی به نام zero (هنگامی فعال می شود که مقدار alu\_result برابر با 0 باشد) میباشد.

#### alu control

وظیفه ی این ما ژول تولید سیگنال کنترلی control برای ما ژول alu می باشد. در دستورات سری R این سیگنال به کمک func بخشی از دستور است تعیین می شود و در سایر موارد به کمک سیگنال alu\_op که از ما ژول control خارج شده است تعیین می گردد.

#### control

وظیفه این ماژول تولید سیگنالهای کنترلی برای سایر ماژولها بر اساس opcode و func موجود در instruction است که به روش hardwired و hardwired بیادهسازی شده است.

#### pc control

در این ماژول بر اساس سیگنالهای کنترلی برنچها و جامپها و همچنین مقادیر آدرس و ورودی immidiate مقدار بعدی PC تعیین می شود. وظیفه این ماژول جداسازی پیچیدگیهای برنچینگ از کد اصلی است.

# خروجي تستها

```
mohamadamin@Mohamadamin:~/projects/CA/project-comma$ make verify-all |grep 'Cycle\|diff -u test/default\|All'
=== Simulation Cycle 9 ===
diff -u test/default/brtest0.reg output/regdump.reg 1>&2
=== Simulation Cycle 6 ===
diff -u test/default/addiu.reg output/regdump.reg 1>&2
=== Simulation Cycle 8 ===
diff -u test/default/shifttest.reg output/regdump.reg 1>&2
=== Simulation Cycle 5 ===
diff -u test/default/brtest2.reg output/regdump.reg 1>&2
=== Simulation Cycle 16 ===
diff -u test/default/arithtest.reg output/regdump.reg 1>&2
=== Simulation Cycle 31 ===
diff -u test/default/memtest0.reg output/regdump.reg 1>&2
=== Simulation Cycle 5 ===
diff -u test/default/addtest.reg output/regdump.reg 1>&2
All tests passed! (7 tests)
```

# فاز دوم - پیادهسازی حافظهی نهان (cache)

در این فاز در ابتدا ماژول mips\_core را به گونهای تغییر دادیم که امکان دریافت و ذخیرهی داده در مموری با تاخیر را انجام دهد. انجام دستورات مرتبط به مموری ۴ سایکل تاخیر دارد.

خروجی تست ها پس از این تغییر به صورت زیر شد:

```
phamadamin@Mohamadamin:~/projects/CA/project-comma$ make verify-all |grep 'Cycle\|diff -u test/default\|All'
 diff -u test/default/brtest0.reg output/regdump.reg 1>&2
=== Simulation Cycle 84 ===
diff -u test/default/sb.reg output/regdump.reg 1>&2
=== Simulation Cycle 6 ===
diff -u test/default/addiu.reg output/regdump.reg 1>&2
=== Simulation Cycle 8 ===
diff -u test/default/shifttest.reg output/regdump.reg 1>&2
=== Simulation Cycle 5 ===
diff -u test/default/brtest2.reg output/regdump.reg 1>&2
=== Simulation Cycle 16 ===
diff -u test/default/arithtest.reg output/regdump.reg 1>&2
=== Simulation Cycle 95 ===
diff -u test/default/memtest0.reg output/regdump.reg 1>&2
=== Simulation Cycle 5 ===
diff -u test/default/addtest.reg output/regdump.reg 1>&2
All tests passed! (8 tests)
```

از آنجا که به ازای هر دستور مموری باید ۴ کلاک صبر کنیم تا داده به دست آید یا داده از مموری خوانده شود، نیاز مند کشی هستیم تا این تاخیر را کاهش دهد.

برای این کار یک Direct-Mapped Cache با مشخصات زیر در ماژول cache.sv پیاده سازی شد:

- Cache size = 8 Kbytes =  $2^{13}$  bytes =  $2^{11}$  blocks
- Block size = 1 word = 32 bits = 4 bytes
- Replacement policy = Direct-Mapped
- Write scheme = Write-back scheme

# CPU address for M.M.



 $c = 19 \text{ bits ([31:13])} \quad b = 11 \text{ bits ([13:2])} \quad w = 0 \text{ bit}$ 

علت آن که هر بلاک را برابر با یک کلمه گرفتیم، این است که در هر بار خواندن مموری تنها دسترسی به یک کلمه داریم و اگر طول هز بلاک بیشتر از یک کلمه میبود، مجبور به چند بار خواندن از مموری در مواقع miss و به طبع آن افزایش کلاک بودیم.

علت آن که از سیاست جایگزینی direct-mapped استفاده کردیم، کاربردی بودن آن در این حجم از کش و همچنین سادگی پیادهسازی آن بود.

### نحوه برقراری ارتباط کش با مموری

در ابتدا تمام اطلاعات موجود در کش مقدار نادرستی دارند پس valid bit در تمام بلاک ها برابر با O میباشد.

هنگامی که درخواست برای خواندن از کش داده شود، اگر valid bit برابر با 0 باشد یا tag یا هیچکدام از بلاک ها برابر نشود، آن داده از حافظه پس از ۴ کلاک خوانده شده و بر روی بلاکی از کش قرار میگیرد.

هنگامی که درخواست برای نوشتن بر روی حافظه داریم، در صورتی که آدرس مورد نظر در حافظه کش وجود داشت، دادهی جدید بر روی کش تغییر میکند و مقدار dirty bit مربوط به آن بلاک برابر با ۱ میشود. در صورتی که آدرس مورد نظر در حافظه کش وجود نداشت، در ابتدا پس از ۴ کلاک داده از مموری به کش انتقال میباشد و سپس دادهی جدید جایگزین میگردد.

هنگامی که حافظه ای از مموری خوانده می شود، اگر مقدار قبلی موجود در کش مقدار valid ای باشد و dirty bit آن برابر با ۱ باشد در ابتدا این بلاک پس از ۴ کلاک بر روی حافظه ی اصلی نوشته می شود و سپس مقدار جدید جایگزین می گردد.

### Datapath

پس از اضافه شدن کش، datapath به صورت زیر خواهد بود:



#### خروجي تستها

با استفاده از این کش، پس از ران کردن تستها مقادیر سایکل تستهای مربوط به مموری به طور چشمگیری کاهش می یابد:

```
mohamadamin@Mohamadamin:~/projects/CA/project-comma$ make verify-all |grep 'Cycle\|diff -u test/default\|All
=== Simulation Cycle 9 ===
diff -u test/default/brtest0.reg output/regdump.reg 1>&2
=== Simulation Cycle 32 ===
diff -u test/default/sb.reg output/regdump.reg 1>&2
=== Simulation Cycle 6 ===
diff -u test/default/addiu.reg output/regdump.reg 1>&2
=== Simulation Cycle 8 ===
diff -u test/default/shifttest.reg output/regdump.reg 1>&2
=== Simulation Cycle 5 ===
diff -u test/default/brtest2.reg output/regdump.reg 1>&2
=== Simulation Cycle 16 ===
diff -u test/default/arithtest.reg output/regdump.reg 1>&2
=== Simulation Cycle 51 ===
diff -u test/default/memtest0.reg output/regdump.reg 1>&2
=== Simulation Cycle 5 ===
diff -u test/default/addtest.reg output/regdump.reg 1>&2
All tests passed! (8 tests)
```

# فاز سوم - پیادهسازی پردازنده به صورت خط لوله (pipline)

در این فاز خط لوله ای با Stage ۵ طراحی و پیاده سازی کردیم که استیج ها در ادامه آمده است:

### IF (Instruction Fetch)

در این stage دستور از مموری خوانده شده و PC ست شده و توسط رجیستر  $IF_{to_ID}$  داده های مورد نیاز به PC بعدی منتقل می شوند.

همچنین در این مرحله سیگنال flush توسط pc\_control تعیین میگردد تا در مواقعی که دستورات branch وارد پایپلاین شده و دستور بعد از آن نباید اجرا شود، جلوی پیشروی این دستور در استیجهای بعد را بگیرد، بدین صورت که با پاس دادن سیگنال flush به رجیستر IF\_to\_ID جلوی انتشار دستور اشتباه گرفته می شود و این دستور به مرحله ID و مراحل دیگر نخواهد رسید.

# ID (Instruction Decode)

در این stage دستوری که در stage قبلی فچ شده توسط کنترلر decode می شود و سیگنال های کنترلی تشکیل شده توسط رجیستر ID\_to\_EXE به مرحله execute منتقل می شوند.

علاوه بر این موارد در این stage موارد forwarding نیز هندل شده است (در ادامه بررسی خواهد شد).

### EXE (Execution of Instruction)

در این stage دستوری که در stage قبلی decode شده توسط ALU اجرا می شود و داده خروجی تولید می شود. داده خروجی و سیگنال های دیگر توسط رجیستر EXE\_to\_MEM به stage بعدی منتقل می شوند.

### MEM (Mem write-read)

در این stage با توجه به سیگنالهای ورودی داده ها از cache خوانده و یا روی cache نوشته خواهند شد. همچنین در این stage با توجه به سیگنال های ورودی با ۴ کلاک تاخیر همراه است، سیگنال کنترلی freeze تولید شده که وظیفه آن توقف خط لوله و جلوگیری از fetch کردن دستور جدید تا زمانی که داده از مموری خوانده شود است. با پاس دادن این سیگنال به ماژولهای IF\_stage، IF\_to\_ID، ID\_to\_EXE، EXE\_to\_MEM جلوگیری میشود.

# WB (Write back to register)

در این stage بر اساس سیستم های کنترلی که توسط رجیستر ها تا این مرحله منتقل شده اند، عمل write back روی رجیستر انجام میگیرد.

همچنین برای رفع control dependency و data dependency دو ماژول hazard\_detector و forwarding را پیادهسازی کردیم. که در ادامه به بررسی آنها میپردازیم:

# hazard\_detector

در این ماژول با گرفتن ورودی های شماره رجیستر ها در مرحله ID، رجیسترِ مقصد و سیگنال reg\_write (اگر فعال باشد نوشتن روی رجیستر صورت میگیرد) در مراحل EXE، MEM و WB، سیگنال های کنترلی is\_reg1\_valid و is\_reg2\_valid در مرحله ID (که در صورت یک بودن مشخص میکنند که دینای آن رجیستر مورد استفاده قرار میگیرد) اقدام به تشخیص مخاطره وابستگی داده ها در استیجهای مختلف و میکند.

# forwarding

این ماژول بر اساس خروجیهای hazard\_detector و مقادیر موجود در استیجهای EXE, MEM, WB داده ی داده ی صحیح مورد استفاده در مرحله EXE را تشخیص میدهد، بدین صورت که اگر آن رجیستر هر هیچ مرحله ای هازارد نداشته باشد، مقدار موجود در آن مرحله انتخاب میگردد.

# Datapath

در بیادهسازی این فاز از شکل زیر الهام گرفته شده است:



# فاز چهارم - افزودن کمکپردازنده اعداد ممیز شناور به پردازنده

در این فاز دستوراتی را جهت پردازش اعداد ممیز شناور به دستورات اصلی پردازنده اضافه شده و سپس به کمک دستورات جدید افزوده شده دو برنامه که در داک خواسته شده بود نوشته شده است. دقت شود که این دو برنامه به صورت دستی به کد ماشین ترجمه شدهاند چرا که ابزاری جهت کامپایل برنامه می اسمبلی به کد ماشین نداشتیم. شرح دستورات جدید و خروجی برنامه ها در زیر آمده است. همچنین سیگنال های خطای DBZ, QNAN, SNAN, Underflow, Overflow نیز توسط ما رول floating\_point\_alu تولید می شود.

### شرح دستورات جدید

طراحی قالب دستورات براساس دستورات فرمت R پردازنده اصلی بوده و آپکد همهی دستورات جدید 000000 میباشد و مشابه دستورات سری R با توجه به فیلد Func دستورات از هم تمایز داده میشوند. در زیر تصویر این قالب آمده است. چون پیاده سازی دستور شیفت ممیز شناور مطلوب ما نبوده فیلد Sh.Amount همواره مقدار صفر دارد یا به بیان بهتر مقدار این فیلد اهمیتی ندارد.

| Opcode | "rs    | 'rt    | 'rd    | Sh.Amount | Func   |
|--------|--------|--------|--------|-----------|--------|
| 6 bits | 5 bits | 5 bits | 5 bits | 5 bits    | 6 bits |

#### ADDF (Func = 111111) .1

این دستور دو عدد ممیز شناور داخل ثباتهای rs, rt را با هم جمع میکند و حاصل را در rd ذخیره میکند.

#### SUBF (Func = 111110) .2

این دستور عدد ممیز شناور داخل ثبات rt را از rs کم میکند و حاصل را در ثبات rd ذخیره میکند.

#### MULTF (Func = 111101) .3

این دستور دو عدد ممیز شناور داخل ثباتهای rt, rs را در هم ضرب میکند و حاصل را در ثبات rd ذخیره میکند.

#### **GF (Func = 111011)** .4

این دستور دو عدد ممیز شناور داخل ثباتهای rs, rt را با هم مقایسه میکند و عددی که بزرگتر است را در rd نخیره میکند.

#### DIVF (Func = 110111) .5

این دستور عدد ممیز شناور در ثبات rs را بر عدد ممیز شناور ثبات rt تقسیم میکند و حاصل را در ثبات rd ذخیره میکند.

#### INVF (Func = 101111) .6

این دستور معکوس عدد ممیز شناور در ثبات rs را در ثبات rd ذخیره میکند

#### ROUNDF (Func = 011111) .7

این دستور مقدار رندشده ی عدد ممیز شناور داخل ثبات rs را در ثبات rd ذخیره میکند.

#### LF (Func = 001111) .8

این دستور مقدار ممیز شناور در ثباتهای rs, rt را با هم مقایسه میکند و مقدار کوچکتر را در ثبات rd ذخیره میکند.

#### شرح خروجی برنامههای نوشته شده

برنامه اول مربوط به تست دستورات است که خروجی هر دستور در یکی از ثباتها نوشته شده است. این برنامه با نام
temp.mem در پوشه تستها موجود است. جهت سهولت در خواندن محتویات ثباتها به صورت ممیزشناور نمایش داده شدهاند.

R10 = R3 + R9 (ADDF)

R11 = R3 - R9 (SUBF)

R12 = R3 \* R9 (MULTF)

R13 = R3 if R3 > R9 else R9 (GF)

R14 = R3 / R9 (DIVF)

R15 = round(R3) (ROUNDF)

```
=== Simulation Cycle 11 ===
*** RegisterFile dump ***
r 0 = 0.000000
r 1 = 0.000000
r 2 = 0.0000000
r 3 = 2.500000
r 4 = 0.000000
r 5 = 0.000000
r 6 = 0.000000
r 7 = 0.000000
r 8 = 0.000000
r 9 = 1.250000
r10 = 3.750000
r11 = 1.250000
r12 = 3.125000
r13 = 2.500000
r14 = 0.400000
r15 = 3.000000
```

برنامه دوم دو عدد داخل ثباتهای R3, R4 را با هم مقایسه میکند و هر کدام که بزرگتر بود را بر دیگری تقسیم میکند و حاصل را رند میکند و در ثبات R8 ذخیره میکند. این برنامه با نام program.mem در پوشه تستها موجود است. جهت سهولت در خواندن محتویات ثباتها به صورت ممیز شناور نمایش داده شدهاند.

```
=== Simulation Cycle 8 ===

*** RegisterFile dump ***

r 0 = 0.000000

r 1 = 0.000000

r 2 = 0.000000

r 3 = 12.500000

r 4 = 5.000000

r 5 = 12.500000

r 6 = 5.000000

r 7 = 2.500000

r 8 = 3.000000
```

دقت شود که کد ماشین هر دو برنامه به صورت دستی و با توجه به فرمت دستورات جدید مربوط به اعداد ممیز شناور که طراحی و بیادهسازی شدهاند نوشته شده است.